SFT-then-RL supera a los métodos de política mixta para el razonamiento de LLM SFT seguido de RL mejora el razonamiento de LLMs superando a políticas mixtas. Descubre los resultados de esta optimización. 2026-04-28 · 2 min